第四十五章:我必知道
關燈
小
中
大
而這也同樣適用於停用詞詞庫的編寫工作。
要知道,對於數據分析師來說,只要方法用對,構建模型、調整參數、分析數據其實並不是什麽難事,真正困難的往往在於如何獲取、搜集和處於數據,這個過程對於他們來說必將是繁瑣且乏味的,但若能保證數據的絕對正確,即便是數據預處理工作十分無趣,他們卻是甘之如飴。就好比諸多將此生奉獻於整個浩瀚宇宙的學者,他們為了印證一個猜想是否存在,你都不知道他們為此日覆一日地記錄著星系的運動軌跡,日覆一日地查看著某個星體發出的信號波,日覆一日地排除其他宇宙物質、射線的幹擾,為的就是一個可能存在而又許是完全錯誤的猜想假設。
這期間枯燥麽?
答案必是肯定的。
那麽,又是什麽支撐他們前行?
是信念,那種追求真理的神聖信念!
而對於刑偵一隊而言,他們的信念來源於生命本身,那是對生命最誠摯的敬意。
為了這個信念,似乎一切的奉獻和犧牲都是值得的!
終於,在淩晨一點零三分三十二秒,通過刑偵隊全體成員及技術隊值班同事的共同努力,報告歸檔工作告一段落,同時,周婺那邊的詞庫整理工作也接近尾聲。只差最後的建模印證了!
——————————
與此同時,影城市某地,一臺主機的屏幕突然彈出了一連串的文字:
——“代號:魯濱遜”
——“監測對象:周婺”
——“職業:影城市警察局刑偵一隊副隊長,影城市警局數據信息化建設的項目總負責人,兼首都專項探案組專家顧問。”
——“破案推理能力A++,數據分析能力A+++”
——“當前啟動計劃:蛾摩拉計劃”
——“計劃當前進展:今日下午十八點整,監測對象——周婺抵達斯裏弗爾數據公司。”
——“十八點三十分,陸殷川、蔣傑、白劍英抵達影城市警察局。”
——“計劃進度推斷:監測對象已將嫌疑人鎖定。”
——“當前任務:侵入影城市警察局內網。”
——“當前警告:侵入影城市警察局內網失敗。”
——“任務判定:無法獲取警察局內部訊息,監測任務暫止。”
——“監測恢覆條件:監測對象或嫌疑人任意觸發任何外網數據。”
——“當前警告:斯裏弗爾雲端數據遭第三方下載。”
——“當前警告:已檢測下載來源,但訊號未知。”
——“當前警告:進一步分析被下載信息,信息內容包含蛾摩拉計劃所有資料。”
——“初步斷定:警方已找到蛾摩拉計劃的關鍵突破口。”
——“初步推斷:分析信息讀取的先後順序,並根據外網現存資料推斷影城市警局內部的命令下達者。”
——“初步斷定:命令下達者為監測對象周婺的可能性為100%。”
——“分析:監測對象周婺發現突破口的時間比預測提前三天。”
——“更新:更新監測對象周婺評級。”
——“經重新評定,監測對象周婺,破案推理能力A+++,數據分析能力S”
——“同時,滿足繼續監測條件,重啟監測任務。”
——————————
周婺那晚一夜未眠。
在眾人將文檔分類歸檔並轉成TXT格式文件後,周婺先囑咐眾人好好休息後,隨後便拿著筆記本默默地回到了自己的專屬辦公室,關上了辦公室的大門。
而真正的文本挖掘工作,現在才剛剛開始!
周婺打開筆記本,調出了隊友幸苦整理的文檔,就火速進入了工作狀態,獨自進行文本挖掘的工作。
由於文本挖掘的數據預處理工作做得比較完善,周婺只是在電腦中輕輕敲了幾行代碼,便實現了不同作者條件下的文本分詞和詞頻統計,最後將詞匯整理羅列成表,而這些已是文本挖掘裏基礎中的基礎,這也自然難不倒周婺這個數據挖掘的發燒友。
而隨後的詞匯篩選在周婺看來也不是難事。
但周婺知道,依照何種規則篩選詞匯必然會對後續的分析造成重大的影響。
從這點考量,周婺對於如何篩選詞匯、如何更新停用詞庫,她都必須認真且仔細地思考。
雖然周婺可以把之前的所有工作通過調用package的方式都交給計算機自動進行,畢竟以現有的分布技術,計算機處理高維數據的速度也只是一瞬,但是出於嚴謹的性格,她更願意親自編寫代碼。而這一點,也是諸多數據分析師做的事情。因為調用他人編好的package確實能夠減輕一定的工作量,可這也讓分析者陷入了數據分析的黑箱,無法得知該算法存在的BUG或缺陷。就好比當前很多數據分析從業者明知神經網絡的建模效果極優,但仍傾向於選擇精度相對不高但解釋程度較好的決策樹一樣,畢竟很多分析者的目的並不在於預測,而更註重如何對數據進行解釋說明。
從這點上,目前人類依舊不能做到100%的信任機器,比起機器本身,他們更願意相信自己。
經過數百次的嘗試和詞匯的篩選,周婺最後選擇了幾個大部分文章裏共同出現的詞匯,以這些詞匯分別為列,不同文檔分別成行,做成列聯表的形式對每篇文檔中該詞匯出現的次數進行計數。
當周婺將數據整理到這一步時,已是淩晨四點。
文本挖掘裏常見的主題分析在周婺看來並沒有什麽必要,因為這些分析報告隨著項目主題的改變也自然會隨之變化,那麽她也不必再浪費自己寶貴的時間。周婺真正想做的,是對這些文檔所屬的原作者進行判定,倘若她的猜想正確,那麽這次的文本挖掘一定能夠找到兇手殺害許威的確鑿證據。
周婺打算先嘗試統計裏最簡單的挖掘方法——卡方齊性檢驗。關於這個檢驗,目前有很多成功的案例能夠對原作者之間常用詞的差異性做出斷定。
檢驗結果不出周婺所料,那篇名叫《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》中的分析結論部分與許威此前所有的報告結論的用詞都相差甚遠。
也就是在這一刻,周婺隱約猜到了真兇,也猜到了真兇殺害許威的目的!
本站無廣告,永久域名(danmei.twking.cc)
要知道,對於數據分析師來說,只要方法用對,構建模型、調整參數、分析數據其實並不是什麽難事,真正困難的往往在於如何獲取、搜集和處於數據,這個過程對於他們來說必將是繁瑣且乏味的,但若能保證數據的絕對正確,即便是數據預處理工作十分無趣,他們卻是甘之如飴。就好比諸多將此生奉獻於整個浩瀚宇宙的學者,他們為了印證一個猜想是否存在,你都不知道他們為此日覆一日地記錄著星系的運動軌跡,日覆一日地查看著某個星體發出的信號波,日覆一日地排除其他宇宙物質、射線的幹擾,為的就是一個可能存在而又許是完全錯誤的猜想假設。
這期間枯燥麽?
答案必是肯定的。
那麽,又是什麽支撐他們前行?
是信念,那種追求真理的神聖信念!
而對於刑偵一隊而言,他們的信念來源於生命本身,那是對生命最誠摯的敬意。
為了這個信念,似乎一切的奉獻和犧牲都是值得的!
終於,在淩晨一點零三分三十二秒,通過刑偵隊全體成員及技術隊值班同事的共同努力,報告歸檔工作告一段落,同時,周婺那邊的詞庫整理工作也接近尾聲。只差最後的建模印證了!
——————————
與此同時,影城市某地,一臺主機的屏幕突然彈出了一連串的文字:
——“代號:魯濱遜”
——“監測對象:周婺”
——“職業:影城市警察局刑偵一隊副隊長,影城市警局數據信息化建設的項目總負責人,兼首都專項探案組專家顧問。”
——“破案推理能力A++,數據分析能力A+++”
——“當前啟動計劃:蛾摩拉計劃”
——“計劃當前進展:今日下午十八點整,監測對象——周婺抵達斯裏弗爾數據公司。”
——“十八點三十分,陸殷川、蔣傑、白劍英抵達影城市警察局。”
——“計劃進度推斷:監測對象已將嫌疑人鎖定。”
——“當前任務:侵入影城市警察局內網。”
——“當前警告:侵入影城市警察局內網失敗。”
——“任務判定:無法獲取警察局內部訊息,監測任務暫止。”
——“監測恢覆條件:監測對象或嫌疑人任意觸發任何外網數據。”
——“當前警告:斯裏弗爾雲端數據遭第三方下載。”
——“當前警告:已檢測下載來源,但訊號未知。”
——“當前警告:進一步分析被下載信息,信息內容包含蛾摩拉計劃所有資料。”
——“初步斷定:警方已找到蛾摩拉計劃的關鍵突破口。”
——“初步推斷:分析信息讀取的先後順序,並根據外網現存資料推斷影城市警局內部的命令下達者。”
——“初步斷定:命令下達者為監測對象周婺的可能性為100%。”
——“分析:監測對象周婺發現突破口的時間比預測提前三天。”
——“更新:更新監測對象周婺評級。”
——“經重新評定,監測對象周婺,破案推理能力A+++,數據分析能力S”
——“同時,滿足繼續監測條件,重啟監測任務。”
——————————
周婺那晚一夜未眠。
在眾人將文檔分類歸檔並轉成TXT格式文件後,周婺先囑咐眾人好好休息後,隨後便拿著筆記本默默地回到了自己的專屬辦公室,關上了辦公室的大門。
而真正的文本挖掘工作,現在才剛剛開始!
周婺打開筆記本,調出了隊友幸苦整理的文檔,就火速進入了工作狀態,獨自進行文本挖掘的工作。
由於文本挖掘的數據預處理工作做得比較完善,周婺只是在電腦中輕輕敲了幾行代碼,便實現了不同作者條件下的文本分詞和詞頻統計,最後將詞匯整理羅列成表,而這些已是文本挖掘裏基礎中的基礎,這也自然難不倒周婺這個數據挖掘的發燒友。
而隨後的詞匯篩選在周婺看來也不是難事。
但周婺知道,依照何種規則篩選詞匯必然會對後續的分析造成重大的影響。
從這點考量,周婺對於如何篩選詞匯、如何更新停用詞庫,她都必須認真且仔細地思考。
雖然周婺可以把之前的所有工作通過調用package的方式都交給計算機自動進行,畢竟以現有的分布技術,計算機處理高維數據的速度也只是一瞬,但是出於嚴謹的性格,她更願意親自編寫代碼。而這一點,也是諸多數據分析師做的事情。因為調用他人編好的package確實能夠減輕一定的工作量,可這也讓分析者陷入了數據分析的黑箱,無法得知該算法存在的BUG或缺陷。就好比當前很多數據分析從業者明知神經網絡的建模效果極優,但仍傾向於選擇精度相對不高但解釋程度較好的決策樹一樣,畢竟很多分析者的目的並不在於預測,而更註重如何對數據進行解釋說明。
從這點上,目前人類依舊不能做到100%的信任機器,比起機器本身,他們更願意相信自己。
經過數百次的嘗試和詞匯的篩選,周婺最後選擇了幾個大部分文章裏共同出現的詞匯,以這些詞匯分別為列,不同文檔分別成行,做成列聯表的形式對每篇文檔中該詞匯出現的次數進行計數。
當周婺將數據整理到這一步時,已是淩晨四點。
文本挖掘裏常見的主題分析在周婺看來並沒有什麽必要,因為這些分析報告隨著項目主題的改變也自然會隨之變化,那麽她也不必再浪費自己寶貴的時間。周婺真正想做的,是對這些文檔所屬的原作者進行判定,倘若她的猜想正確,那麽這次的文本挖掘一定能夠找到兇手殺害許威的確鑿證據。
周婺打算先嘗試統計裏最簡單的挖掘方法——卡方齊性檢驗。關於這個檢驗,目前有很多成功的案例能夠對原作者之間常用詞的差異性做出斷定。
檢驗結果不出周婺所料,那篇名叫《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》中的分析結論部分與許威此前所有的報告結論的用詞都相差甚遠。
也就是在這一刻,周婺隱約猜到了真兇,也猜到了真兇殺害許威的目的!
本站無廣告,永久域名(danmei.twking.cc)